LLM multimodaux : texte, image, audio et vidéo, où en est-on ?

Les LLM multimodaux : quand l’IA apprend à voir, entendre et lire en même temps

Pendant longtemps, les grands modèles de langage — ces fameuses IA capables de rédiger, résumer ou traduire du texte — étaient cantonnés à une seule modalité : les mots. Mais depuis quelques années, la frontière entre texte, image, son et vidéo s’efface progressivement. On parle désormais de modèles multimodaux, capables de traiter simultanément plusieurs types de données. En France comme ailleurs, cette évolution suscite autant d’enthousiasme que de questions concrètes : à quoi ça sert vraiment ? Qui développe quoi ? Et surtout, où en est-on réellement en ce printemps 2025 ?

Qu’est-ce qu’un LLM multimodal, concrètement ?

Un LLM multimodal (pour Large Language Model) est un modèle d’intelligence artificielle capable d’ingérer et de produire des informations dans plusieurs formats à la fois. Là où GPT-3 ne comprenait que du texte, ses successeurs — GPT-4o, Gemini 1.5 Pro, Claude 3 Opus ou encore Mistral Large — peuvent analyser une photo, transcrire une conversation audio, décrire une vidéo, ou encore répondre à une question posée oralement en retournant une réponse parlée. Le terme « multimodal » désigne donc cette capacité à jongler entre les modalités : texte, image, audio, vidéo, et parfois même données tabulaires ou code.

Cette évolution n’est pas anodine. Elle transforme profondément la manière dont ces outils peuvent être intégrés dans des applications du quotidien. Un médecin peut soumettre une radio et obtenir une première analyse textuelle. Un enseignant peut envoyer une vidéo de cours et demander un résumé structuré. Un développeur peut photographier un bug sur son écran et obtenir une explication. La multimodalité ne rend pas l’IA omnisciente, mais elle élargit considérablement le spectre des tâches qu’elle peut assister.

L’état des lieux en 2025 : les grands acteurs et leurs capacités

Sur le plan international, plusieurs modèles dominent la course à la multimodalité. GPT-4o d’OpenAI, lancé en mai 2024, représentait une avancée notable : capable de traiter en temps quasi-réel de la voix, des images et du texte dans une architecture unifiée. Google a riposté avec Gemini 1.5 Pro, qui se distingue notamment par une fenêtre de contexte exceptionnellement longue — jusqu’à un million de tokens — permettant d’analyser des heures de vidéo ou des centaines de pages de documents. Anthropic, de son côté, a enrichi Claude 3 avec des capacités visuelles solides, particulièrement appréciées pour l’analyse de documents complexes.

Mais la France n’est pas absente du tableau. Mistral AI, la pépite tricolore fondée à Paris en 2023, a accéléré sur ce terrain en 2025. Si Mistral s’est d’abord illustré par des modèles texte très performants et ouverts, la société a annoncé des développements multimodaux avec Mistral Small 3.1, intégrant désormais des capacités de compréhension d’images. C’est un signal fort : la France entend peser dans la course aux modèles fondamentaux, y compris sur le volet multimodal. Par ailleurs, des acteurs comme Hugging Face — dont les racines sont franco-américaines — continuent de jouer un rôle central dans la diffusion open source de modèles multimodaux comme LLaVA, Idefics ou Qwen-VL, rendant ces technologies accessibles à la communauté de recherche et aux entreprises.

Les usages qui émergent en France : entre entreprises et secteur public

Du côté des applications concrètes sur le territoire français, plusieurs secteurs montrent la voie. Dans la santé, des startups collaborent avec des hôpitaux pour explorer l’analyse automatisée d’imageries médicales couplée à des comptes-rendus textuels générés par IA — toujours sous supervision médicale, la réglementation française et européenne étant stricte sur ces sujets. Dans le domaine juridique, des cabinets d’avocats testent des outils capables d’analyser des contrats scannés, d’en extraire les clauses sensibles et d’en produire un résumé oral à la demande. Le secteur de l’éducation n’est pas en reste : des expérimentations menées dans des académies pilotes utilisent des assistants multimodaux pour aider des élèves en difficulté à comprendre des schémas ou des énoncés photographiés.

Du côté des entreprises, les DSI françaises commencent à intégrer des pipelines multimodaux dans leurs processus métier. Un exemple fréquent : la gestion documentaire. Des milliers de factures, bons de commande ou rapports sont encore transmis sous forme d’images ou de PDF non structurés. Les LLM multimodaux permettent de lire ces documents visuellement et d’en extraire les données utiles sans passer par des solutions OCR rigides et coûteuses à maintenir. Le gain de productivité est réel, et les premiers retours d’expérience sont encourageants.

Les limites à ne pas sous-estimer

Pour autant, il serait trompeur de dresser un tableau idyllique. Les modèles multimodaux actuels souffrent encore de limitations importantes. La compréhension vidéo reste le parent pauvre de la multimodalité : si les modèles peuvent analyser des images fixes avec une précision remarquable, la cohérence temporelle dans une vidéo — comprendre une séquence d’actions, saisir une émotion qui évolue — demeure un défi technique non résolu à grande échelle. La qualité de la reconnaissance audio en français, avec ses accents régionaux et son vocabulaire spécialisé, laisse encore à désirer dans certains contextes.

Il y a aussi des enjeux de confidentialité et de souveraineté des données qui préoccupent légitimement les organisations françaises. Envoyer une image médicale ou un document juridique sensible vers un modèle hébergé hors de l’Union européenne pose des questions au regard du RGPD. C’est l’une des raisons pour lesquelles des solutions comme celles de Mistral AI — qui peuvent être déployées on-premise ou dans des clouds souverains — séduisent de plus en plus les acteurs institutionnels français. L’Agence nationale de la sécurité des systèmes d’information (ANSSI) et la CNIL ont d’ailleurs publié des lignes directrices pour encadrer l’usage de ces outils dans les organisations sensibles.

Et demain ? Les prochaines étapes de la multimodalité

La direction que prend la recherche est claire : aller vers des modèles encore plus intégrés, capables de raisonner de manière fluide sur plusieurs modalités sans que l’utilisateur ait à s’adapter. On parle de modèles natifs multimodaux, formés dès le départ sur des données hétérogènes, plutôt que de modèles texte auxquels on a greffé des modules visuels ou audio. Des projets comme Gemini Ultra ou les travaux en cours chez des laboratoires européens financés par le programme Horizon Europe témoignent de cette ambition.

En France, la stratégie nationale pour l’IA — dont le volet industriel a été renforcé par les annonces du gouvernement en début d’année 2025 — prévoit des investissements accrus dans la recherche fondamentale sur les architectures multimodales. Des laboratoires comme l’Inria, le LAAS-CNRS ou le laboratoire LIP6 à Sorbonne Université contribuent activement à ces travaux. L’enjeu n’est pas seulement technologique : il est aussi stratégique. Maîtriser les modèles multimodaux, c’est maîtriser une couche fondamentale de l’infrastructure numérique de demain. Et sur ce terrain, la France a clairement décidé de jouer sa partition.